10.3 결론 - 상호보완적 이원성(Duality)과 통합 아키텍처의 미래

인공지능 아키텍처의 발전사는 효율성과 표현력 사이의 끊임없는 변증법적 투쟁과 타협의 기록이다. 순환 신경망(RNN)이 시계열 데이터의 시간적 흐름을 포착하려 했던 초기 시도가 그 시작이었다면, 트랜스포머(Transformer)의 등장은 병렬 처리 능력과 문맥 전체를 동시에 조망하는 어텐션(Attention) 메커니즘을 무기로 자연어 처리(NLP)의 패권을 장악한 혁명적 사건이었다. 그러나 우리는 본서의 앞선 장들을 통해 트랜스포머가 가진 태생적 한계, 즉 시퀀스 길이에 따른 2차원적( $O(N^2)$ ) 연산 복잡도와 추론 시의 선형적 메모리 증가 문제를 목도했다. 이에 대한 강력한 안티테제(Antithesis)로 등장한 것이 바로 구조화된 상태 공간 모델(Structured State Space Models, SSM), 그중에서도 맘바(Mamba) 아키텍처였다. 맘바는 선형적( $O(N)$ ) 확장성과 추론 시의 상수 메모리( $O(1)$ ) 사용이라는, 마치 물리학의 법칙을 거스르는 듯한 효율성을 앞세워 ‘포스트 트랜스포머’ 시대의 가능성을 열어젖혔다.1

하지만 이 긴 여정 끝에 우리가 도달한 결론은 맘바가 트랜스포머를 완전히 폐기하고 대체하는 ’단절적 교체(Replacement)’가 아니다. 오히려 두 아키텍처가 수학적으로 깊이 연결되어 있음을 증명하는 ’이원성(Duality)’의 발견과, 서로의 치명적인 약점을 메우고 강점을 극대화하는 ’통합(Integration)’이 미래의 핵심 키워드임을 확인했다. 이 장에서는 맘바-2(Mamba-2)가 규명한 ’구조화된 상태 공간 이원성(Structured State Space Duality, SSD)’의 심층적인 이론적 함의를 분석하고, 잼바(Jamba), 그래나이트(Granite), 짐바(Zamba) 등 최신 하이브리드 모델들이 보여주는 아키텍처의 진화 방향성을 통해, 단일 모델의 시대를 넘어선 차세대 통합 아키텍처의 미래를 철저히 조망하고자 한다.

1. 구조화된 상태 공간 이원성(SSD): 이론적 대통합의 서막

맘바 아키텍처가 진화하여 도달한 가장 중요한 이론적 성취는 단순히 모델의 성능을 개선한 것이 아니라, 서로 다른 연구 흐름으로 간주되던 SSM과 어텐션 메커니즘이 수학적으로 본질적인 등가성을 지니고 있음을 증명한 ’구조화된 상태 공간 이원성(SSD)’의 발견이다. 이는 딥러닝 아키텍처 연구의 지평을 근본적으로 재정의하는 사건이다.1

1.1 행렬 구조의 급진적 단순화와 수학적 연결성

기존 맘바(S6) 모델은 선택적 스캔(Selective Scan) 메커니즘을 효율적으로 구현하기 위해 상태 전이 행렬 $A$ 에 대각(Diagonal) 구조를 부여했다. 이는 계산 복잡도를 낮추는 데 기여했지만, 여전히 GPU와 같은 현대적 하드웨어의 병렬 연산 능력을 100% 활용하기에는 구조적 제약이 존재했다. 맘바-2는 여기서 한 걸음 더 나아가 행렬 $A$ 에 더욱 급진적인 제약을 가한다. 바로 ’스칼라 값에 단위 행렬을 곱한 구조(Scalar times Identity)’로의 단순화다.3

이 제약은 대각 행렬의 모든 요소가 동일한 값을 가지게 함으로써, 행렬 $A$ 를 거대한 행렬이 아닌 단일 스칼라 값(혹은 시간 $t$ 에 따라 변하는 스칼라 값)으로 취급할 수 있게 만든다. 이 단순화가 가져온 파급 효과는 실로 엄청나다. 스칼라 구조를 가진 SSM은 특정 형태의 인과적 마스크(Causal Mask)를 가진 선형 어텐션(Linear Attention)과 수학적으로 완벽하게 등가(Dual)임이 밝혀졌기 때문이다.5

이를 수식으로 표현하면 다음과 같은 이원성을 확인할 수 있다. SSM의 상태 공간 방정식은 다음과 같이 선형 어텐션의 형태로 재구성될 수 있다.

$y_t = \sum_{i=1}^{t} C_t^T A_{t:i+1} B_i x_i$

여기서 $A_{t:i}$ 는 시간 $i$ 부터 $t$ 까지의 상태 전이 행렬의 누적곱 $\prod_{j=i}^{t} A_j$ 를 의미한다. 이 식을 주의 깊게 살펴보면, $C_t$ 는 어텐션 메커니즘의 쿼리(Query) 벡터, $B_i$ 는 키(Key) 벡터, $x_i$ 는 밸류(Value) 벡터와 대응된다. 그리고 가장 중요한 $A_{t:i}$ 항은 쿼리와 키 사이의 상호작용을 조절하는, 마치 위치 인코딩(Positional Encoding)이나 상대적 위치 편향(Relative Position Bias)과 유사한 역할을 수행한다.3

이러한 수학적 통찰은 SSM이 본질적으로 ’고정된 크기의 상태를 갖는 순환 신경망(RNN)’의 특성을 가짐과 동시에, 가중치를 동적으로 계산하여 입력 시퀀스의 상호작용을 모델링하는 ’어텐션’의 특성 또한 내포하고 있음을 시사한다. 즉, SSM과 어텐션은 서로 다른 두 개의 아키텍처가 아니라, 동일한 현상을 바라보는 두 가지 다른 수학적 관점이었던 것이다.

1.2 하드웨어 친화적 알고리즘(Matmul)으로의 진화

이론적 이원성의 발견은 곧바로 실용적 가치로 직결된다. 기존 SSM, 특히 맘바-1(Mamba-1)은 순환적(Recurrent) 특성으로 인해 순차적 스캔(Scan) 연산에 의존해야 했다. 이는 시퀀스 길이가 길어질 때 선형적 복잡도를 보장하지만, 최신 GPU(H100, A100 등)가 제공하는 텐서 코어(Tensor Core)의 강력한 행렬 곱셈(Matrix Multiplication, Matmul) 성능을 충분히 활용하지 못한다는 단점이 있었다. GPU는 거대한 행렬을 한꺼번에 곱하는 연산에 최적화되어 있기 때문이다.

SSD 프레임워크 하에서 SSM은 이제 거대한 행렬 곱셈 연산으로 재구성될 수 있다. 맘바-2는 시퀀스를 작은 블록(Block) 단위로 나누어, 블록 내부에서는 어텐션과 유사한 병렬 처리를 수행하고, 블록 간에는 SSM의 순환적 업데이트를 수행하는 하이브리드 알고리즘을 채택했다. 이를 통해 훈련 속도를 기존 맘바 대비 2배에서 최대 8배까지 가속화하는 데 성공했다.7

또한, 맘바-2는 ‘헤드(Head)’ 차원( $P$ )을 도입하여 모델의 병렬성을 극대화했다. 맘바-1이 각 채널을 독립적인 SSM으로 처리했던 것( $P=1$ )과 달리, 맘바-2는 트랜스포머의 멀티 헤드 어텐션(Multi-head Attention)처럼 $P > 1$ (예: 64)인 설정을 기본으로 하여, 텐서 코어의 효율성을 극대화하는 동시에 모델의 파라미터 효율성을 높였다.3 결과적으로 SSD는 SSM이 가진 추론 시의 압도적 효율성(Inference Efficiency)과 트랜스포머가 가진 학습 시의 병렬 처리 효율성(Training Efficiency)을 동시에 달성하는 이론적 토대를 마련했다.

특성 (Feature)	맘바-1 (Mamba-1 / S6)	맘바-2 (Mamba-2 / SSD)	트랜스포머 (Transformer)
행렬 A 구조	대각 (Diagonal)	스칼라 $\times$ 단위행렬 (Scalar Identity)	해당 없음 (Attention Matrix)
주요 연산	선택적 스캔 (Selective Scan)	행렬 곱셈 (Matmul) + 스캔	행렬 곱셈 (Matmul)
병렬성	채널 독립적 ( $P=1$ )	헤드 기반 병렬 ( $P>1$ )	멀티 헤드 병렬
이원성 (Duality)	제한적	선형 어텐션과 완전 등가	해당 없음
학습 속도	빠름 ( $O(N)$ )	매우 빠름 (2-8x 가속)	느림 ( $O(N^2)$ )
하드웨어 활용	메모리 대역폭 제한적 활용	텐서 코어 최적화	텐서 코어 최적화

2. 복사(Copying) 문제와 순수 SSM의 한계: 압축의 대가

통합 아키텍처의 필연성을 이해하기 위해서는 순수 SSM, 즉 맘바 아키텍처가 가진 본질적인 아킬레스건을 직시해야 한다. 맘바는 긴 시퀀스를 처리하는 데 있어 탁월한 효율성을 보이지만, ’상태 압축(State Compression)’이라는 메커니즘적 특성으로 인해 정보의 완벽한 보존이 필요한 작업에서 트랜스포머에 비해 명백히 열등한 성능을 보인다. 이를 가장 극명하게 보여주는 것이 바로 ‘복사(Copying)’ 및 ‘정확한 회상(Exact Recall)’ 문제이다.2

2.1 고정된 상태 크기의 딜레마와 정보 손실

트랜스포머는 KV 캐시(Key-Value Cache)를 통해 과거의 모든 토큰 정보를 명시적으로 메모리에 저장한다. 시퀀스 길이가 10만 토큰이라면, 10만 토큰에 해당하는 키와 밸류가 그대로 보존된다. 이는 시퀀스 길이가 길어질수록 메모리 사용량이 선형적으로 증가한다는 단점이 있지만, 반대로 말하면 과거의 어떤 정보든 손실 없이 완벽하게 조회(Retrieve)할 수 있다는 것을 의미한다. 즉, 트랜스포머는 ’기억(Memory)’을 ’저장(Storage)’의 개념으로 접근한다.

반면, 맘바와 같은 SSM은 과거의 모든 정보를 고정된 크기의 은닉 상태(Hidden State, $h_t$ )에 압축하여 갱신한다. 시퀀스가 아무리 길어져도 $h_t$ 의 크기는 변하지 않는다. 이는 $O(1)$ 메모리라는 효율성을 제공하지만, 필연적으로 정보의 손실(Lossy Compression)을 초래한다. 하버드 켐프너 연구소(Kempner Institute) 등의 연구에 따르면, 맘바는 임의의 긴 문자열을 복사하거나 문맥 내에서 특정 정보를 정확히 찾아내는 작업(Needle-in-a-Haystack)에서 트랜스포머보다 현저히 낮은 성능을 보였다.8

용량 제한 (Capacity Bottleneck): 고정된 메모리 크기는 물리적 한계를 만든다. 입력 시퀀스의 정보량이 상태 용량을 초과하는 순간, 모델은 오래된 정보나 덜 중요하다고 판단된 정보를 잊어야(Forgetting) 한다. 이는 긴 소설책의 내용을 요약하는 데는 유리할 수 있으나, 책의 특정 페이지에 적힌 전화번호를 정확히 기억해야 하는 작업에서는 치명적이다.
일반화 실패 (Length Generalization Failure): 맘바 모델은 짧은 시퀀스(예: 50 토큰)에서 복사 작업을 훈련된 후, 더 긴 시퀀스(예: 100 토큰 이상)로 확장될 때 성능이 급격히 하락하는 경향을 보였다. 반면 트랜스포머는 적절한 위치 인코딩(예: Hard-ALiBi)을 사용할 경우, 훈련된 길이보다 훨씬 긴 시퀀스에서도 복사 작업의 정확도를 유지했다.8
데이터 비효율성 (Data Inefficiency): 맘바가 복사 작업을 수행하도록 학습시키기 위해서는 트랜스포머 대비 약 100배 더 많은 데이터나 학습 단계가 필요하다는 실험 결과도 존재한다. 트랜스포머는 몇 번의 예시만으로 패턴을 파악하는 반면, 맘바는 상태 전이 파라미터가 그 패턴을 ’학습’할 때까지 수많은 반복이 필요하다.8

2.2 인덕션 헤드(Induction Heads)의 구조적 부재

트랜스포머가 복사 작업과 문맥 내 학습(In-Context Learning)에 강력한 이유는 기계적 해석 가능성(Mechanistic Interpretability) 연구에서 밝혀진 ‘인덕션 헤드(Induction Heads)’ 메커니즘에 기인한다. 인덕션 헤드는 [A]... 패턴이 나왔을 때, 나중에 다시 [A]가 나타나면 그 뒤에 ``가 나올 확률을 높이는 회로이다. 이는 2개 이상의 어텐션 레이어 조합(이전 토큰을 보는 헤드 + 현재 토큰과 유사한 과거 토큰을 찾는 헤드)을 통해 자연스럽게 형성된다.8

맘바 역시 이론적으로는 이러한 메커니즘을 근사할 수 있으나, 명시적인 어텐션 매트릭스 없이 순차적인 상태 전이만으로 이 복잡한 패턴 매칭(Pattern Matching)을 수행하는 데는 구조적인 어려움이 따른다. 트랜스포머가 “과거의 기록을 직접 펼쳐보고” 답을 찾는다면, 맘바는 “흐릿해진 기억을 더듬어” 답을 찾아야 하는 셈이다.

이러한 심층 분석은 “모든 것을 SSM으로 대체한다“는 초기 맘바 지지자들의 급진적 비전이 수정되어야 함을 시사한다. **효율적인 정보 압축(Mamba)**과 **완벽한 정보 보존(Transformer)**은 상충 관계(Trade-off)에 있으며, 미래의 아키텍처는 이 두 가지를 적절히 배합하는 ‘하이브리드’ 방향으로 나아가야 한다.

3. 하이브리드 아키텍처: 실용적 통합의 시대

상술한 이원성과 상호보완적 특성에 기반하여, 최근 등장하는 최첨단 모델들은 맘바 레이어와 트랜스포머 레이어를 결합한 하이브리드 형태를 띠고 있다. 이는 단순한 물리적 결합을 넘어, 각 레이어의 역할 분담을 통해 성능과 효율의 파레토 프론티어(Pareto Frontier)를 확장하려는 시도이다.

3.1 잼바(Jamba): 거대 문맥 처리를 위한 최적 비율의 발견

AI21 Labs가 공개한 잼바(Jamba)는 하이브리드 아키텍처의 가장 성공적인 상용화 사례 중 하나이다. 잼바는 트랜스포머와 맘바 레이어를 혼합하되, 전문가 혼합(Mixture-of-Experts, MoE) 모델을 추가하여 모델 용량을 극대화했다.

1:7 비율의 미학: 잼바는 광범위한 실험을 통해 최적의 레이어 배합 비율을 찾아냈다. 바로 1개의 트랜스포머 레이어마다 7개의 맘바 레이어를 배치하는 1:7 비율이다.10 이는 전체 레이어의 약 87.5%를 맘바가 차지함으로써 추론 시 KV 캐시 메모리 사용량을 획기적으로 줄이고(기존 트랜스포머 대비 1/8 수준), 긴 문맥에서의 처리 속도(Throughput)를 3배 이상 향상시켰다.12
역할 분담 (Role Specialization): 다수의 맘바 레이어는 문맥의 전반적인 흐름, 구문론적 정보, 그리고 장기적인 의존성을 효율적으로 압축 처리한다. 반면, 간헐적으로 배치된 소수의 트랜스포머 레이어는 ’강력한 어텐션’을 통해 중요 정보의 정확한 회상(Recall)과 복잡한 논리적 추론을 담당한다. 1:7 비율은 맘바가 가진 ’망각’의 위험을 트랜스포머의 ‘회상’ 능력으로 주기적으로 보정해 주는 구조라 할 수 있다.
MoE와의 결합: 일부 레이어에 MoE를 적용함으로써, 활성 파라미터(Active Parameters) 수는 12B 수준으로 유지하면서도 총 파라미터는 52B 이상으로 확장하여 모델의 ’지식 용량’을 늘렸다. 이는 맘바의 약점인 ‘기억 용량’ 문제를 파라미터 수의 확장으로 보완하는 전략이며, 단일 80GB GPU에서도 거대 모델을 효율적으로 구동할 수 있게 한다.13

3.2 IBM 그래나이트(Granite): 엔터프라이즈와 엣지를 위한 실용주의

IBM의 그래나이트(Granite) 4.0 모델군은 맘바-2를 기반으로 한 하이브리드 아키텍처가 기업용 엔터프라이즈 환경 및 엣지(Edge) 디바이스에서 어떻게 응용될 수 있는지 보여주는 모범 사례다.

맘바-2 중심 설계: 그래나이트 4.0은 맘바-2 레이어를 주축으로 하고 소량의 어텐션 레이어를 혼합했다. 이는 맘바-2의 하드웨어 친화적 특성을 활용하여 학습 및 추론 속도를 극대화하기 위함이다.15 특히 기업 환경에서는 추론 비용(Inference Cost) 절감이 중요한데, 그래나이트는 맘바-2의 효율성을 통해 이를 달성했다.
위치 인코딩의 제거(NoPE): 그래나이트 아키텍처의 가장 흥미로운 점은 위치 인코딩(Positional Encoding)을 사용하지 않는다는 것이다(NoPE). 맘바는 데이터를 순차적으로 처리(Sequential Processing)하므로 데이터 자체에 순서 정보가 내재화된다. 따라서 별도의 위치 정보 주입 없이도 문맥을 이해할 수 있으며, 이는 모델 구조를 단순화하고 학습된 길이보다 더 긴 문맥으로의 확장(Extrapolation)을 용이하게 한다.15 이는 트랜스포머가 위치 인코딩 방식(RoPE, ALiBi 등)에 따라 성능이 크게 좌우되는 것과 대조적이다.
엣지 최적화: ’Granite Nano’와 같은 모델은 SSM의 가벼운 메모리 발자국(Memory Footprint)을 활용하여 노트북이나 모바일 기기에서도 고성능 LLM을 구동할 수 있게 한다. 트랜스포머 모델은 긴 문맥을 처리할 때 KV 캐시가 디바이스의 RAM을 빠르게 잠식하지만, 그래나이트는 이러한 제약에서 자유롭다. 이는 서버급 GPU가 없는 환경에서도 AI를 민주화하는 데 기여한다.16

3.3 짐바(Zamba)와 그리핀(Griffin): 생물학적 영감과 전역 주의 집중

또 다른 하이브리드 접근법으로는 짐바(Zamba)와 구글 딥마인드의 그리핀(Griffin)이 있다. 이들은 뇌과학적 기전이나 기존 RNN의 개선을 통해 더욱 정교한 통합을 모색한다.

짐바(Zamba)의 공유 어텐션: 짐바는 맘바 블록들 사이에 ‘전역 공유 어텐션(Global Shared Attention, GSA)’ 블록을 삽입한다. 이는 뇌의 해마(Hippocampus, 기억 통합 및 장기 기억 형성)와 피질(Cortex, 정보 처리)의 관계에서 영감을 받은 것이다. 다수의 맘바 레이어(피질)가 각자 정보를 처리하고, 이 정보들이 하나의 공유된 어텐션 메모리 공간(해마)에서 통합되고 재분배되는 구조이다. 이는 모델의 파라미터를 크게 늘리지 않으면서도 정보의 흐름을 전역적으로 동기화하는 효과를 낳는다.17
그리핀(Griffin)과 호크(Hawk): 구글 딥마인드의 그리핀은 맘바 대신 ’게이트 선형 순환(Gated Linear Recurrences, GLR)’이라는 독자적인 RNN 구조를 사용하며, 이를 지역적 어텐션(Local Attention)과 결합한다. 순수 RNN 모델인 호크(Hawk) 역시 맘바를 능가하는 성능을 보였으며, 하이브리드 모델인 그리핀은 순수 트랜스포머인 Llama-2와 대등한 성능을 보이면서도 학습 데이터 효율성은 훨씬 높음을 입증했다. 특히 그리핀은 훈련된 길이보다 훨씬 긴 시퀀스에서도 성능 저하 없이 작동하는 강력한 외삽(Extrapolation) 능력을 보여주었다.18

모델 (Model)	아키텍처 구성 (Architecture)	주요 특징 (Key Features)	타겟 활용처 (Target Use-case)
Jamba	Mamba (다수) + Transformer (소수) + MoE	1:7 비율, 256K 컨텍스트, 단일 GPU 구동	고성능 언어 모델, 긴 문맥 분석
Granite 4.0	Mamba-2 (다수) + Transformer (소수)	NoPE (위치 인코딩 없음), 엣지 최적화	엔터프라이즈, 온디바이스 AI
Zamba	Mamba + Global Shared Attention	뇌과학적 영감(해마-피질), 공유 메모리	효율적인 학습 및 추론
Griffin	Gated Linear Recurrence + Local Attention	독자적 RNN(RG-LRU), 강력한 외삽 능력	확장성 있는 언어 모델링

4. 통합 아키텍처의 미래 전망: 어디로 나아가는가

지금까지의 논의를 종합해 볼 때, 맘바와 SSD로 촉발된 ‘포스트 트랜스포머’ 시대의 미래는 단일 아키텍처의 독주가 아닌, 목적에 따른 유연한 결합과 통합으로 귀결된다. 우리는 이러한 통합의 흐름이 가져올 미래를 세 가지 관점에서 전망할 수 있다.

4.1 “양적 효율성“에서 “질적 효율성“으로의 패러다임 전환

과거 모델 경량화가 단순히 모델 크기(파라미터 수)를 줄이는 ‘양적(Quantitative)’ 접근이었다면, 맘바 기반 하이브리드 아키텍처는 연산의 성격 자체를 바꾸는 ‘질적(Qualitative)’ 접근이다. $O(N^2)$ 복잡도를 가진 고비용 연산(어텐션)을 꼭 필요한 곳(중요 정보 회상, 복잡한 추론)에만 전략적으로 배치하고, 나머지 대다수의 연산(문맥 유지, 구문 분석)은 $O(N)$ 선형 복잡도(SSM)로 처리함으로써, 긴 문맥 처리 비용을 획기적으로 낮추는 것이다.

이는 단순히 “더 빠른 모델“을 만드는 것을 넘어선다. 기존에는 비용 문제로 불가능했던 100만 토큰(1M), 나아가 무제한의 문맥을 실시간으로 처리하는 ‘무한 문맥(Infinite Context)’ AI 실현의 초석이 될 것이다. 사용자의 평생 대화 기록을 기억하는 개인 비서, 수천 권의 전문 서적을 동시에 참조하는 법률/의료 AI 등이 이 하이브리드 아키텍처 위에서 비로소 경제성을 갖추게 될 것이다.

4.2 언어 모델을 넘어선 ’일반 시퀀스 모델(General Sequence Model)’로의 확장

SSD와 하이브리드 아키텍처의 잠재력은 자연어 처리에만 머물지 않는다. 맘바는 이미 유전체(DNA) 염기서열 분석, 고빈도 금융 데이터와 같은 시계열(Time-series) 데이터 예측, 오디오 파형 생성 등 연속적이고 매우 긴 시퀀스 데이터에서 트랜스포머를 능가하는 성능을 보이고 있다.20 DNA 서열은 수십억 개의 토큰으로 이루어져 있어 기존 트랜스포머로는 처리가 불가능했지만, 맘바 기반 모델은 이를 가능케 한다.

특히 ’맘바포머(Mambaformer)’와 같은 시도는 시계열 데이터의 장기 의존성(Long-term dependency)은 맘바가, 급격한 단기 변동성(Short-term variation)은 트랜스포머가 담당하는 형태로 발전하고 있다.21 이는 현재의 거대 언어 모델(LLM) 중심의 흐름이, 텍스트, 이미지, 오디오, 센서 데이터 등 모든 형태의 시퀀스 데이터를 통합적으로 처리하는 진정한 의미의 ’파운데이션 시퀀스 모델(Foundation Sequence Model)’로 진화할 것임을 예고한다.

4.3 하드웨어와 알고리즘의 공진화(Co-evolution)

맘바-2의 설계 과정에서 볼 수 있듯이, 미래의 아키텍처는 하드웨어의 특성을 고려하여 진화할 것이다. 현재의 AI 가속기는 대부분 트랜스포머의 행렬 곱셈 연산에 최적화되어 있다. 그러나 SSM과 하이브리드 아키텍처가 주류로 부상함에 따라, 순환적 연산과 병렬 연산을 동시에 효율적으로 처리할 수 있는 새로운 형태의 하드웨어, 혹은 맘바의 ‘상태(State)’ 관리에 특화된 메모리 계층 구조를 가진 NPU가 등장할 가능성이 높다. 이는 다시 알고리즘의 변화를 유도하는 공진화(Co-evolution)의 사이클을 가속화할 것이다.

5. 맺음말

“모든 것은 흐른다(Panta Rhei)“는 헤라클레이토스의 명제처럼, AI 아키텍처의 지형도 역시 고정된 것이 아니라 끊임없이 유동하고 있다. 맘바가 쏘아 올린 ’선형 효율성’이라는 화살은 트랜스포머라는 거인의 어깨 위에 꽂혀 그를 쓰러뜨린 것이 아니라, 오히려 거인의 손에 들린 새로운 무기가 되었다.

우리가 10장에서 심도 있게 다룬 ’상호보완적 이원성(Duality)’의 발견은 인공지능 연구에 있어 매우 중요한 철학적, 실용적 교훈을 준다. 최고의 지능과 성능은 하나의 독단적인 방법론이 아니라, 상반되는 특성—압축과 보존, 순환과 병렬, 망각과 기억, 효율과 표현—을 조화롭게 통합할 때 달성된다는 것이다. 잼바, 그래나이트, 짐바와 같은 하이브리드 모델들은 이러한 통합의 초기 단계에 불과하다.

앞으로 우리는 더욱 정교하게 설계된 레이어 인터리빙(Interleaving), 정보의 중요도에 따라 연산 경로를 바꾸는 동적 라우팅(Dynamic Routing), 그리고 인간의 뇌처럼 단기 기억과 장기 기억을 유기적으로 연결하는 기억 메커니즘의 혁신을 목격하게 될 것이다. 이를 통해 인공지능은 단순한 패턴 매칭 기계를 넘어, 방대한 문맥 속에서 의미를 추출하고 끊임없이 학습하는, 인간의 인지 능력에 한 걸음 더 다가선 차세대 통합 아키텍처로 진화할 것이다. 맘바는 트랜스포머를 대체하지 않았다. 오히려 트랜스포머를 완성시켰으며, 이제 두 아키텍처는 ’하이브리드’라는 하나의 몸체가 되어 AI의 새로운 지평을 향해 나아가고 있다. 이것이 우리가 10장에서 내리는 결론이자, 다가올 미래에 대한 확신이다.

참고 자료

state-spaces/mamba: Mamba SSM architecture - GitHub, 12월 26, 2025에 액세스, https://github.com/state-spaces/mamba
The Mamba Revolution: How State Space Models Are Challenging Transformers - Medium, 12월 26, 2025에 액세스, https://medium.com/@aftab001x/the-mamba-revolution-how-state-space-models-are-challenging-transformers-4ad3b276b9a8
State Space Duality (Mamba-2) Part I - The Model | Tri Dao, 12월 26, 2025에 액세스, https://tridao.me/blog/2024/mamba2-part1-model/
Mamba2MIL: State Space Duality Based Multiple Instance Learning for Computational Pathology *Corresponding author - arXiv, 12월 26, 2025에 액세스, https://arxiv.org/html/2408.15032v1
VSSD: Vision Mamba with Non-Causal State Space Duality - arXiv, 12월 26, 2025에 액세스, https://arxiv.org/html/2407.18559v2
Exploiting the Structured State-Space Duality To Build Bayesian Attention | by Hylke C. Donker | Data Science Collective | Medium, 12월 26, 2025에 액세스, https://medium.com/data-science-collective/exploiting-the-structured-state-space-duality-to-build-bayesian-attention-3883ab8bacd4
[2405.21060] Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality - arXiv, 12월 26, 2025에 액세스, https://arxiv.org/abs/2405.21060
Repeat After Me: Transformers are Better than State Space Models …, 12월 26, 2025에 액세스, https://kempnerinstitute.harvard.edu/research/deeper-learning/repeat-after-me-transformers-are-better-than-state-space-models-at-copying/
Exploring the Limitations of Mamba in COPY and CoT Reasoning - arXiv, 12월 26, 2025에 액세스, https://arxiv.org/html/2410.03810v3
Architectural Evolution in Large Language Models: A Deep Dive into Jamba’s Hybrid Transformer-Mamba Design - Greg Robison, 12월 26, 2025에 액세스, https://gregrobison.medium.com/architectural-evolution-in-large-language-models-a-deep-dive-into-jambas-hybrid-transformer-mamba-c3efa8ca8cae
Jamba: A Hybrid Transformer-Mamba Language Model - arXiv, 12월 26, 2025에 액세스, https://arxiv.org/html/2403.19887v1
AI21 Labs Jamba-Instruct model is now available in Amazon Bedrock | Artificial Intelligence, 12월 26, 2025에 액세스, https://aws.amazon.com/blogs/machine-learning/ai21-labs-jamba-instruct-model-is-now-available-in-amazon-bedrock/
Jamba: A Hybrid Transformer-Mamba Language Model - arXiv, 12월 26, 2025에 액세스, https://arxiv.org/pdf/2403.19887
Jamba: Hybrid Transformer-Mamba Language Models - OpenReview, 12월 26, 2025에 액세스, https://openreview.net/forum?id=JFPaD7lpBD
IBM Granite 4.0: Hyper-efficient, High Performance Hybrid Models …, 12월 26, 2025에 액세스, https://www.ibm.com/new/announcements/ibm-granite-4-0-hyper-efficient-high-performance-hybrid-models
🪨 IBM Granite 4.0-Nano, 12월 26, 2025에 액세스, https://alain-airom.medium.com/ibm-granite-4-0-nano-b4a3a4d9cef7
Zamba: A Compact 7B SSM Hybrid Model - arXiv, 12월 26, 2025에 액세스, https://arxiv.org/html/2405.16712v1
[2402.19427] Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models - arXiv, 12월 26, 2025에 액세스, https://arxiv.org/abs/2402.19427
Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models, 12월 26, 2025에 액세스, https://storage.prod.researchhub.com/uploads/papers/2024/03/01/2402.19427.pdf
[D] What happened to SSMs and linear attentions? : r/MachineLearning - Reddit, 12월 26, 2025에 액세스, https://www.reddit.com/r/MachineLearning/comments/1in9y30/d_what_happened_to_ssms_and_linear_attentions/
SST: Multi-Scale Hybrid Mamba-Transformer Experts for Time Series Forecasting - arXiv, 12월 26, 2025에 액세스, https://arxiv.org/pdf/2404.14757